決策樹迴歸方法與分類有點類似差別僅在於評估分枝好壞的方式不同。當數據集的輸出爲連續性數值時,該樹算法就是一個迴歸樹。透過樹的展開,並用葉節點的均值作爲預測值。從根節點開始,對樣本的某一特徵進行測試。經過評估後,將樣本分配到其子結點。此時每一個子節點對應著該特徵的一個值。依照這樣方式進行,直至到達葉結點。此時誤差(loss)為0。
決策樹透過所有特徵與對應的值將資料切分,來找出最適合的分枝並繼續往下拓展。若決策樹深度越深,則決策規則越複雜,模型也會越接近數據,但若數據中含有雜訊,太深的樹就有可能產生過擬合的情形。因此單一的迴歸樹肯定是不夠用的。可以利用集成學習中的 Boosting 架構,對迴歸樹進行改良升級。
中秋連假愉快
本系列教學簡報 PDF & Code 都可以從我的 GitHub 取得!
文章同時發表於: https://andy6804tw.github.io/crazyai-ml/12.決策樹
如果你對機器學習和人工智慧(AI)技術感興趣,歡迎參考我的線上免費電子書《經典機器學習》。這本書涵蓋了許多實用的機器學習方法和技術,適合任何對這個領域有興趣的讀者。點擊下方連結即可獲取最新內容,讓我們一起深入了解AI的世界!
👉 全民瘋AI系列 [經典機器學習] 線上免費電子書
👉 其它全民瘋AI系列 這是一個入口,匯集了許多不同主題的AI免費電子書
10程式中
您好,謝謝您的講解。
想請問我有看到書中寫到,迴歸樹的「應變數"符合常態分布」,才適合建立迴歸模型,若為變異很小或雙峰分配,對建模會有困難。
想請問此條件是只有在「迴歸樹」時需要去確認的事,還是像多元迴歸等其他迴歸模型,或多元類別作為目標變數的模型,都要去確認的事?